• De AI-tak van Google, Google DeepMind heeft twee nieuwe AI-modellen gelanceerd die robots helpen “taken uit te voeren in de echte wereld”.
  • Het model Gemini Robotics is gebouwd op basis van het Gemini 2.0 en zet de kennis van deze AI om in fysieke acties.
  • Gemini Robotics-ER (embodied reasoning) is een geavanceerd model dat het denkwerk en de logische beredenering achter de handelingen uitvoert.
  • Lees ook: Google zet flinke stap met nieuwe AI Mode voor zoekopdrachten

Google DeepMind heeft twee nieuwe AI-modellen gelanceerd die ontworpen zijn om robots te helpen “een breder scala aan taken uit te voeren in de echte wereld”. Het eerste model dat Gemini Robotics heet, is in staat is om nieuwe situaties te begrijpen, zelfs als het er niet op getraind is.

Gemini Robotics is gebouwd op basis van het Gemini 2.0, de nieuwste versie van Google’s Large Language Model. Carolina Parada, hoofd robotica bij Google DeepMind, zegt dat Gemini Robotics “put uit het multimodale wereldbegrip van Gemini 2.0 en deze kennis omzet in fysieke acties in de echte wereld”.

Robots aansturen met behulp van AI

Het nieuwe model boekt laat verbetering zien op drie belangrijke gebieden die volgens Google DeepMind essentieel zijn voor het bouwen van behulpzame robots: ruimtelijkheid, interactiviteit en behendigheid.

Naast het vermogen om nieuwe scenario’s te interpreteren, is Gemini Robotics beter in interactie met mensen en hun omgeving. Ook is de robot in staat om precieze, fysieke taken uit te voeren, zoals het vouwen van een vel papier of het openen van een flesje.

“Hoewel we in het verleden op elk van deze gebieden vooruitgang hebben geboekt met algemene robotica, bieden we nu verbeterde prestaties op alle drie de gebieden in één enkel model”, zegt Parada. “Dit stelt ons in staat om robots te bouwen die capabeler, responsiever en robuuster zijn.”

Google DeepMind lanceert ook Gemini Robotics-ER (embodied reasoning), wat het bedrijf beschrijft als een geavanceerd visueel taalmodel dat “onze complexe en dynamische wereld kan begrijpen.”

"Als je een broodtrommel inpakt en je hebt spullen voor je op tafel liggen, moet je weten waar alles ligt, hoe je de broodtrommel opent, hoe je de etenswaren pakt en hoe je ze in de broodtrommel stopt. Dat is het soort denkwerk dat van Gemini Robotics-ER wordt verwacht", legt Parada uit.

Het model is zo ontworpen dat robotici het kunnen verbinden met bestaande low-level controllers, dat is het systeem dat de bewegingen van een robot bestuurt.

Google DeepMind werkt samen met Apptronik om “de volgende generatie humanoïde robots te bouwen”. Het heeft ook “vertrouwde testers” toegang tot zijn Gemini Robotics-ER model gegeven, waaronder Agile Robots, Boston Dynamics en Enchanted Tools.

Om de veiligheid van deze modellen die zelfstandig fysieke acties kunnen uitvoeren, te waarborgen heeft het bedrijf een “gelaagde aanpak” ontwikkelt, vertelt Google DeepMind onderzoeker Vikas Sindhwani. De Gemini Robotics-ER modellen “worden getraind om te evalueren of een potentiële actie veilig is om uit te voeren in een bepaald scenario”, aldus Sindhwani.

Het bedrijf brengt daarnaast ook nieuwe benchmarks uit om het veiligheidsonderzoek in de AI-industrie te bevorderen en presenteerde vorig jaar een speciale “Robot Constitution”, een verzameling regels die de robots moeten volgen.

LEES OOK: Robots die robots bouwen - deze humanoïde machines helpen zichzelf te fabriceren